阅读收获 • 深入理解AI时代存储架构的核心挑战:数据孤岛、迁移瓶颈和资源利用率低下等问题 • 掌握从基础设施中心到数据中心的存储理念转变,以及这种转变对AI工作负载的重要意义 • 了解Hammerspace 这家专注于AI数据平台的厂商,提出了从"面向基建"到"面向数据"的范式转变,通过创新的软件定义存储方案,将分散的存储资源整合为统一的全局数据环境。 Hammerspace数据平台 Hammerspace数据平台通过提供一个统一的软件定义抽象层,解决了传统以基础设施为中心的存储策略所带来的复杂性、低效率和性能瓶瓶颈问题。 Hammerspace是一个软件定义的、通用的数据骨干平台,它通过提供一个跨越边缘、数据中心和云的全局数据环境,来满足AI等现代高性能工作负载的需求。 在单一全局命名空间内扩展至多层存储 Hammerspace不仅仅是一个高性能的Tier 0解决方案,更是一个能够整合多层异构存储、实现智能数据生命周期管理的完整数据平台。
安防监控视频集中存储/云存储EasyCVR视频汇聚平台基于云边端一体化架构,可支持多协议、多类型设备接入,视频监控综合管理平台具有强大的数据接入、处理及分发能力,能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚 、整合、存储、集中管理。 在对接AI算法中台/数据中台/边缘计算硬件上, 视频分析EasyCVR可以获取AI检测识别的告警信息,并在平台【告警查询】模块中展示,支持通过告警类型、告警级别等进行检索和查看。 近期有项目提出需求,将智能视频监控综合管理系统EasyCVR对接AI算法平台接口,希望将返回的分析数据持久化保存到EasyCVR服务,并且在页面列表展示。今天来分享一下实现方式。 1)创建分析结果数据结构,如下:2)将数据写到数据库,如下:3)前端页面展示如下:视频存储磁盘阵列/安防视频监控/视频汇聚EasyCVR平台的告警功能,可以对监控设备上传的告警(离线、遮挡、故障等)及AI
在搭建 AI 平台时,NAVER 评估了公有云平台的存储产品、Alluxio 以及高性能专用存储产品等多种选项后,最终决定采用 JuiceFS。 它支持 Kubeflow,不仅便于 AI 模型的开发,还能整合模型训练和部署服务的完整 AI 工作流程。此外,AiSuite 还支持使用集成了公司内部数据平台 Kubeflow 工作流组件。 在建设 AI 平台时,最大的挑战就是提供适合 AI 工作负载的存储。随着大型语言模型(LLM)的普及,为了生成优质的 AI 模型,所需数据的规模越来越大,且分布式学习需要多个节点能够同时访问数据。 适用于 AI 平台的存储需求如下: 必须能够处理大规模数据; 为了进行重复的训练,高性能是必须的; 必须能作为 Kubernetes 持久卷(persistent volume)使用,即支持 Kubernetes 优势 在 AI 平台 AiSuite 中,我们评估了 JuiceFS 作为 AI 工作负载的存储解决方案的可行性。
Atlas 超级计算平台是云知声的计算底层基础架构,为云知声在 AI 各个领域(如语音、自然语言处理、视觉等)的模型迭代提供训练加速等基础计算能力。 Atlas 平台深度学习算力超过 57 PFLOPS(5.7 亿亿次/秒,是的你没有看错,是亿亿次] ),深度学习算力是衡量一个 AI 平台计算性能的核心指标。 本文主要分享云知声 Atlas 超算平台(以下简称 Atlas)的存储建设历程以及基于 JuiceFS 建设高效存储的实践。 存储建设历程 一个性能卓越的超算平台,不仅需要充足的算力支持,也离不开高效的存储系统。 AI 离线训练任务通过与 FUSE Pod 客户端交互,进行 AI 训练数据的读取,通过 Fluid 提供的缓存调度能力以及数据集的可观测性,平台的用户可以通过亲和调度将缓存部署在特定的计算节点上,同时用户能够直观的看到缓存的使用情况
随着技术的发展,跨平台桌面应用的需求日益增长,PyQT作为一个强大的Python绑定库,使得开发者能够使用Python语言快速构建跨平台的桌面应用程序。 跨平台的桌面应用开发需要考虑不同操作系统之间的差异,并保证应用程序在这些平台上运行一致。 为了实现这一需求,可以将整个过程拆解为以下几个部分:选择适合的 GUI 库、创建基本的窗口界面、实现界面布局和交互逻辑、处理跨平台差异性、最终打包发布应用。 发布应用程序完成开发和测试后,可以将 Electron 应用程序发布到各个平台(Windows、macOS 和 Linux)。根据目标平台的要求,可以使用相应的发布工具和流程。 三、如何通过Electron构建跨平台桌面应用安装Node.js和Electron:首先,你需要在你的计算机上安装Node.js和Electron。
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK 平台既具备传统安防视频监控的能力,也具备接入AI智能分析的能力,可拓展性强、视频能力灵活,能对外分发RTMP、RTSP、HTTP-FLV、WebSocket-FLV、HLS、WebRTC等视频流。 支持上传设备分组的组织信息,可以通过以下方式实现:1)创建设备分组;2)选择通道;3)共享节点;完成后,上级平台的级联信息如下:视频集中存储/云存储/视频监控管理平台EasyCVR能在复杂的网络环境中, AI智能大数据视频分析EasyCVR平台已经广泛应用在工地、工厂、园区、楼宇、校园、仓储等场景中。感兴趣的用户可以前往演示平台进行体验或部署测试。
小米作为全球知名的科技巨头公司,已经在数百款产品中广泛应用了 AI 技术,这些产品包括手机、电视、智能音箱、儿童手表和翻译机等。这些 AI 应用主要都是通过小米的深度学习训练平台完成的。 统一的文件存储方案:在我们立项并进行 JuiceFS 项目之前,在机器学习平台我们采用了 Ceph RBD+NFS、S3 FUSE、HDFS 等多种数据存储方式,我们期望能够统一存储方案,将大部分数据放到同一存储平台 我们预期中的存储平台需要具备如下特性: 功能丰富,拥有完善的存储功能,支持 POSIX 等多种访问协议,同时具备易用性,面向云原生平台设计。 规模扩展性,能够支撑百亿文件、百 PB 容量规模的文件存储能力,能够弹性扩展。 性能与成本,满足 AI 高并发训练等场景的性能需求,服务稳定可靠同时兼顾存储成本。 提升性能 提高全闪存储性能,支持 RDMA、SPDK,降低延时 GDS (GPU Direct Storage) 面向 AI 大模型场景,提供高速存储 能力 优化 Meta 传输 proto 协议,减少
贝壳机器学习平台团队从去年开始对存储系统进行重构,选择了基于 JuiceFS 的存储方案。 目前 JuiceFS 作为存储底座服务于整个机器学习平台,不仅提高了对混合多云架构的适应性,还大幅提升了数据处理效率。 在公有云平台上协调 GPU 资源时,用户可能会面临地域限制的挑战,这一变化促使包括贝壳在内的企业对 AI 基础设施架构进行调整。 贝壳 AI 基础设施演化:单机 - 多机多卡 - 平台化 - 混合云 目前,我们团队负责的两个平台,混合云 KCS 容器服务和 AIStudio 机器学习平台,均基于容器技术并构建在大型混合云平台上。 该文件系统平台优化的首个方面是数据同步的即时性。它允许数据同步从数据写入阶段便开始进行,这与传统的 AI 工作流程形成鲜明对比。
如果您不熟悉它,对象存储是一种数据存储架构,允许您将大量非结构化数据存储在可扩展的对象结构中。它将数据存储为具有元数据和唯一标识符的对象,从而更容易访问该数据。现在,有许多平台提供对象存储设施。 这就是为什么在本文中,我们将告诉您四个有用的开源对象存储平台,它们包含强大的功能,使它们成为 2022年的重大投资。 2.Ceph Ceph 是对象存储、块存储和文件系统的开源平台。它提供与 Amazon 的 S3 REST API 和 OpenStack 的 API Swift 完全兼容的对象存储功能。 因此,选择具有您需要的所有功能的对象存储平台非常重要。 超级的点评: 超级比较看好Apache Ozone ,比较商业友好的许可证,兼容不同的协议,可做企业统一的存储平台,运维成本比较低,活跃的社区,对于大文件性能比较好。
用一个极致容量、极致性能、极简架构和极易管理的存储平台去支撑起一个新数据中心,这是浪潮存储的目标,也即今年3月浪潮存储宣布的存储平台化战略。 那么,存储平台化战略如何落地? 继3月份推出了全新一代G5 存储平台:超大规模数据中心级分布式存储平台AS13000 G5和数据中心级高端存储平台AS18000 G5之后,浪潮存储在IPF2019大会上又推出了其自研的NVMe SSD 和全闪存储G5,进一步完善了其存储平台战略的拼图。 在李辉看来,面向AI应用的存储产品现在处于产品探索期,浪潮一直都在密切关注AI存储产品的动向,“面向AI应用的存储产品目前有两种思路:一种是延续现有产品平台,通过提升产品能力来满足AI需求;第二种就是重构产品 浪潮存储在紧密跟进和研究AI整体应用架构可能产生新的存储产品形态,比如会不会回归到几十年前最简单的存储系统去适配AI应用,而不需要快照、复制这些存储功能。”
在数据被视为公司资产的时代,每个公司基本都会保存最近数年的数据,而这些数据尤其是冷数据的累积也给存储平台带来了甜蜜的负担。下面就来分享下如何解决这些“负担”。 ,我们着重介绍SSD相关的存储策略,具体如下: All_SSD - 用于将所有副本存储在SSD中 One_SSD - 用于将其中一个副本存储在SSD中。 对于未指定的文件或目录,如果是根目录,则返回默认存储策略。否则,返回其父级的有效存储策略。 要使用存储策略,我们需要在在每个数据节点上hdfs-site.xml中参数dfs.datanode.data.dir配置的由逗号分隔的存储位置使用的存储类型进行标记。 HDFS设计的详细存储类型和存储策略如下表,有兴趣的同学可以看看: ?
如何使用 Electron 和 Vue 3 创建一个跨平台的桌面应用,并集成简单的 AI 功能和云存储。我们将构建一个基本的应用框架,使用一些示例代码来帮助你入门。 目录下创建一个 HelloWorld.vue:<template>
安防视频集中存储EasyCVR视频汇聚平台,可支持海量视频的轻量化接入与汇聚管理。 平台能提供视频存储磁盘阵列、视频监控直播、视频轮播、视频录像、云存储、回放与检索、智能告警、服务器集群、语音对讲、云台控制、电子地图、平台级联、H.265自动转码等功能。 当检测到异常或违规情况时,可发送告警信息给前台,从而实现基于AI智能算法的视频分析与视频监控功能,为用户提供可视化视频AI智能监管与风险预警大平台。 具体数据结构如下:我们的AI算法中台支持40多种AI算法,包括各种场景,比如消防、城管、社区、环保、水利等,将监控现场摄像头采集的视频流接入到平台,配置相关AI算法模型后,就能对视频流进行智能检测和分析了 感兴趣的用户可以前往演示平台进行体验或部署测试。
随着数据迁移至云存储平台,有一些因素需要考虑,如你是否迁移了归档数据,他们具有不同的宕机需求。除非发生在传说中的“通用型”云产品上,否则必须基于你的特定用例的迁移计划。 IoT最佳存储系统 由于对象存储的无限扩展架构和持久的性质,它非常适合处理通过IoT文件积累的PB级的非结构化数据。对于云的主要选择,对象存储可以用于私有、公有和混合云平台。 通过在每个文件中提供广泛的元数据,对象存储可以筛选大量非结构化数据,却不会让你感到苦恼。 公有与私有云各自优缺点 当选择云存储平台时,你可能在公有云与私有云之间难以选择。 通过将被动数据迁移到较低的存储层,混合云平台可以清理急需的存储空间,否则可能会被很少访问的数据浪费。 在灾难发生后保护,并确保重要数据可用并不是一件小事,但是使用云存储平台可使提供商做更多的工作。
AI 数据处理的规模化挑战 企业面临非结构化数据激增、AI 管线复杂化带来的存储瓶颈,传统方案存在数据孤岛、处理效率低下、存储成本高昂及检索困难等核心痛点,难以支撑 AI 全生命周期管理。 一体化数据平台解决方案 腾讯云存储数据平台提供覆盖数据采集、清洗、训练、推理到应用的全链路服务,通过 GooseFS(数据湖存储)、COS(对象存储)、数据万象 CI(数据处理)及 MetaInsight 实现) 数据处理复杂度与成本降低 30%(数据万象 CI 实现) 非结构化数据检索准确率提升至 95%+,亿级数据毫秒级响应(MetaInsight 实现) 单集群可管理百 EB 级数据,支持无上限存储规模与多格式数据 (COS 实现) 自动驾驶企业实现 AI 训练加速 某头部自动驾驶公司采用腾讯云 GooseFS 构建数据预处理 Pipeline,实现训练数据加速与 checkpoint 高效读写,解决了海量非结构化数据处理的性能瓶颈 技术领先性与行业认可 腾讯云存储数据平台基于创新的 Yotta 存储架构,在不牺牲性能的前提下显著降低存储成本,支持全球 21 个地区、55 个可用区、3200+ 加速节点的规模化部署,曾获 XX 奖项
: GB级别的顺序写 推理和RAG过程中: TB级别的随机读 归档过程中: PB级别的随机写 典型 AI 集群的存储剖析(按存储性能分层存储) 图片 左边绿色GPU服务器集群通常只能提供8个U.2的插槽 中间采用高性能全闪存,通过是TLC, 弥补机械盘性能, 总容量比HDD少 右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高 AI集群中的数据移动 图片 1.数据采集阶段,原始数据按顺序写入对象存储层 RAG 还可以创建额外的 I/O 活动 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘 旨在优化 AI 存储效率的产品组合 QLC 提升新型 AI DC(数据中心) 构建的电源效率 每个 DGX 有关建模详细信息,请参阅附录“QLC 功率效率与 HDD” 模型训练与数据存储 AI 数据穿越存储层之旅 最近的检查点基本在SSD上 早期的检查点数据在HDDS AI数据量级和性能 检查点:提高存储容量和吞吐量 Blob 存储层一次性访问可实现高吞吐量 AI负载中的存储扩展性 总结 AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求 AI行业也会带动存储行业发展,
Fig-2 AI训练工作流对应的存储方案定性说明。 Fig-3 图示 AI训练工作流中存储层动态交互过程。 数据转移到HDD层做长时保留 • 存储层的性能/容量,随GPUs数量及训练次数弹性扩展 AI模型训练前,要完成数据Tokenization/ Vectorization,用什么专用软件来实现? 核心要点:GPU从Blob存储层同时访问会驱动高吞吐量 Fig-6 从AI系统存储带宽需求,看HDD和SSD发展现况和机遇: • 当前系统使用SSD能满足训练和Checkpoint的性能读取(但成本较高 总结 作为运营主要AI训练资源云厂商,”巨硬“对AI应用层系统实践,应该说是富有经验的,从这篇分享中可以总结以下几点: • 和新兴存储厂商(WEKA/VAST/Infidant)等普遍拥抱闪存基础设施& (Fig-5); • HDD/SSD介质发展趋势,AI场景要兼顾容量和性能(Fig-7)。
SuperMicro:AI存储硬件方案-Fig-1 云厂商 AI存储方案 大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。 SuperMicro:AI存储硬件方案-Fig-2 企业级AI存储方案 Pod 级别的部署(较云厂商规模、性能要求降低) 企业用例,推理与训练的比较 存储需求: • 全 NVMe 或 PB 级别的分层存储 • 并行文件系统,高性能对象存储。 SuperMicro:AI存储硬件方案-Fig-3 基础计算硬件方案 在执行 AIOps 和 MLOps 时: • GPU 密集型服务器加速 AI 训练和推理。 • WEKA 数据平台: • 扩展式、分层存储解决方案。 • 集群存储解决方案。 • 数据保护和性能保障。 SuperMicro:AI存储硬件方案-Fig-5 计算+存储(性能层)+容量层 方案 所有训练数据集和模型都存储在本地 • 数据湖使用容量优化的存储。
随着移动设备、平板电脑、V**s、远程桌面、SaaS应用程序的使用,越来越多的用户选择将数据存储在云端,也就是说将数据存储在一个没有边界的区域内。 6.云存储平台分析 本节将介绍一些我们分析过的应用,包含同步token的格式、存储、以及同步token被偷的影响。 ,并存储在sync_config.db数据库中。 更新token存储在“password”字段中,user-id存储在“user name”字段中。 用户名是账户的邮件地址,存储的数据是加密的更新token。
因而在小数据时代,存储世界是关系数据库一统天下的时代。 当存储技术的发展变得步履蹒跚,赶不上数据发展的速度时,分布式存储成为了必然选择,非结构型数据也对存储格式提出了新的要求。 此时,分布式存储与NoSQL的诞生回应了这样的需求,解决了大数据存储的根本难题。 数据存储工具如百花盛开,一时仿佛来到了数据存储的盛世。 这就引出了大数据平台数据存储的一个重要特征: 相同的业务数据会以多种不同的表现形式,存储在不同类型的数据库中,形成polyglot-db这种产生数据冗余的生态环境。 数据存储就是数据平台工程师手中的工具百宝箱,你需要熟悉各种工具的利弊,他们擅长处理的场景,然后再将好钢用在刀刃上,以求最大性的发挥工具的潜力。 记住,在大数据平台中,不是数据驱动而是业务场景驱动你对数据存储的技术决策。